Datenanalyse

Aus dem Sonnenaufgang und Sonnenuntergang wird jeweils die Anzahl an Tagesstunden berechnet. Die kürzesten Tage liegen mit etwas über acht Stunden stets Ende Dezember, im Sommer erreichen die längsten Tage etwa 16,5 Stunden. Aufgrund meteorologischer Begebenheiten ergibt sich eine fast perfekte jährliche Saisonalität.

Diese Saisonalität spiegelt sich auch in den Boxplots wider.

Das Histogramm zeigt, dass die Verteilung hin zu den Extrema um acht und 16 Stunden hin verzerrt ist.

Korrelationsanalyse

Liniendiagramm (Verlauf)

Ähnlich wie bei der Temperatur läuft die Anzahl der Tagesstunden grundsätzlich auch dem Stromverbrauch entgegen. Allerdings scheint der Zusammenhang nicht so stark ausgeprägt zu sein wie bei der Temperatur, auch der Anstieg des Stromverbrauchs in der Mitte des Jahres lässt sich hierdurch nicht erklären. Es muss also geprüft werden, ob sich ein tatsächlicher Zusammenhang zwischen den Tagesstunden und dem Stromverbrauch finden lässt oder ob es sich um eine Scheinkorrelation mit dem Stromverbrauch handelt, welche durch die Jahreszeiten beziehugnsweise die damit verbundenen Änderungen der Temperatur bedingt ist.

Stromverbrauch nach Tagesstunden (Scatterplot)

Im Scatterplot ist der Stromverbrauch auf der y-Achse und die Anzahl an Tagesstunden auf der x-Achse abgebildet. Die Tage sind nach Arbeitstagen (rot) und arbeitsfreien Tagen (blau) getrennt. Per Regression wird versucht, einen linearen Zusammenhang zwischen den beiden Merkmalen zu ermitteln. Hier zeigt sich, dass der Stromverbrauch an längeren Tagen zu sinken scheint. Es besteht allerdings weiterhin die Möglichkeit einer jahreszeit-bedingten Scheinkorrelation.

Stromverbrauch nach Tagesstunden (Boxplot)

Die Boxplots zeigen den oben beschriebenen Zusammenhang noch einmal. Der besonders niedrige Stromverbrauch bei wenigen Tagesstunden ist auf die Weihnachtszeit beziehungsweise die damit verbundene Urlaubssaison zurückzuführen. Ende Dezember sind die Tage besonders kurz und der Stromverbrauch ist gleichzeitig sehr gering, was allerdings auf externe Effekte zurückzuführen ist. Ansonsten ist hier nochmals deutlich, dass der Stromverbrauch bei längeren Tagen fällt. Es ist allerdings auch sichtbar, dass der Stromverbrauch ab etwa 14 Tagesstunden stagniert. Dies erinnert zunächst an den Kipppunkt bei der Temperatur, allerdings steigt der Stromverbrauch ab etwa 14 Tagesstunden nicht in erkennbaren Maßen an, sondern verbleibt auf dem gleichen Level.

Tagesstunden und Temperatur

Wie bereits erwähnt liegt die Vermutung nahe, dass der Stromverbrauch von der Temperatur beeinflusst wird und die oben sichtbaren Zusammenhänge zwischen Stromverbrauch und Tagesstunden lediglich Scheinkorrelationen sind. Daher muss die Anzahl an Tagesstunden im Zusammenhang mit der Temperatur betrachtet werden. Im Diagramm ist erkennbar, dass die Temperatur und Anzahl der Tagesstunden (aufgrund meteorologischer Begebenheiten) ein sehr ähnlichen jährlichen Saisonalität folgen. Die Minima der beiden Merkmale liegen etwa zeitgleich im Dezember. Allerdings erreicht die Temperatur ihr Maximum etwa einen Monat später als die Tagesstunden.

Stromverbrauch nach Tagesstunden und Temperatur (Scatterplot)

Im Scatterplot sind die Temperatur auf der x-Achse und die Tagesstunden auf der y-Achse abgebildet. Gelbe Punkte repräsentieren Tage mit hohem, grüne Punkte mit mittlerem und blaue/lilane Punkte mit niedrigem Stromverbrauch. Viele Punkte mit gleicher Temperatur lassen sich anhand der y-Achse durch die Tageslänge im Stromverbrauch unterscheiden. Betrachtet man beispielsweise Tage mit etwa 10°C so erkennt man, dass die kurzen Tage im unteren Bereich tatsächlich häufig einen höheren Stromverbrauch aufweisen als die längeren Tage im oberen Bereich. Dies lässt sich sowohl bei Arbeits- wie auch bei arbeitsfreien Tagen erkennen. Es kann also davon ausgegangen werden, dass der Stromverbrauch zwar hauptsächlich durch die Temperatur, aber auch leicht durch die Tagesstunden beeinflusst wird.

Regressionsanalyse

Durch die Regressionsanalyse wird geprüft, inwieweit sich der Verlauf des Stromverbrauchs anhand der verfügbaren exogenen Merkmale modellieren lässt. Es geht dabei noch nicht um die Erstellung eines Vorhersagemodells. Stattdessen wird die Regressionsanalyse eher mit Blick auf potenzielle Zusammenhänge, Korrelationen und Muster beziehungsweise generelle Verläufe durchgeführt. Aus diesem Grund bietet sich eine Funktion sechsten Grades an. Dafür wird mit den Daten von 2015 bis 2018 und den entsprechenden Merkmalen eine Regression sechsten Grades durchgeführt, welche dann mit den Daten für 2019 getestet wird. Wie bereits erwähnt, gibt es 2020 und 2021 Abweichungen vom ansonsten üblichen Verlauf. Daher werden nur die Daten bis einschließlich 2019 verwendet.

Regression mit Tagesstunden

Die Regression auf die Tagesstunden zeigt, dass die jährliche Bewegung des Stromverbrauchs sogar etwas besser als nur durch die Temperatur abgebildet werden kann.

Regression mit Arbeitstag und Tagesstunden

Mittels Regression auf den Indikator für Arbeitstage und die Anzahl an Tagesstunden lässt sich der Verlauf ähnlich gut wie mit der Temperatur abbilden. Allerdings schwächelt das Regressionsmodell mit der Abbildung der wöchentlichen Saisonalität und ist stark nach oben verzerrt.

Regression mit Arbeitstagen, Temperatur und Tagesstunden

Wenn zusätzlich zum Indikator für Arbeitstage und der Temperatur noch die Tagesstunden in das Modell einbezogen werden, dann ergibt sich zunächst kein wirklicher zusätzlicher Informationsgewinn. Das Modell kann stellenweise Verläufe besser oder schlechter erfassen. Insgesamt scheinen die Tagesstunden das Modell jedoch eher zu verschlechtern, was allerdings auch zufällig sein kann.

Fazit

Der Zusammenhang des Stromverbrauchs und der Anzahl an Tagesstunden ist zwar sehr viel schwächer als beispielsweise bei der Temperatur, allerdings werden die Tagesstunden trotzdem für das Modeling verwendet, da sich ein schwacher, aber dennoch nachweisbarer Zusammenhang ergibt. Bei der Modellierung ist allerdings zu prüfen, ob und inwieweit die Modelle durch die Tagesstunden verbessert werden oder ob das Merkmal gegebenenfalls entfernt werden sollte.

Daten speichern

Die als relevant und aussagekräftig ermittelten oder für Analysen relevanten Daten werden in der Datei „data.csv“ zwischengespeichert.